http://www.abbs.info e-mail:[email protected]

ISSN 0582-9879                                          ACTA BIOCHIMICA et BIOPHYSICA SINICA 2003, 35(8): 707–716                                    CN 31-1300/Q

03138

Estimating Coarse Gene Networks from Yeast Gene Expression Time Series

XU Xiao-Jiang#, WANG Lian-Shui#, DING Da-Fu*

( Key Laboratory of Proteomics, Institute of Biochemistry and Cell Biology, Shanghai Institutes for Biological Sciences, the Chinese Academy of Sciences, Shanghai 200031, China )

 

Abstract        Gene networks is the collection of gene-gene regulatory relations at the expression level. In this study, a combined approach of the linear transcriptional modeling, identification of promoter elements and gene co-expression clustering is developed to decipher yeast gene networks from expression time series. The cell must reorganize the genomic expression to programs required for growth and survival in each environment. The expression of many genes is regulated by environmental stress. The products of many genes that induced in the environmental stress are involved in metabolism of carbohydrates, structural repairs and even sporulation. Interestingly, it is identified that transcription factors Mcm1 and Dal82 matched their binding sites TT-CC---T--GGAAA and TGAAAAWTTT in cell cycle progression and environmental stress response, respectively. These conclusions agree with the known observations. The results indicate that the approach may be useful for modeling gene networks from microarray data.

 

Key words     gene regulatory network; genome time serial expression; cell cycle; environmental stress

________________________________________

Received: April 28, 2003        Accepted: May 16, 2003

This work was supported by the grants from the National High Technology Research and Development Program of China (863 Program) (No. 2002AA234021), Knowledge Innovation Program of the Chinese Academy of Sciences (No. KJCX1-08), and Shanghai Science and Technology Commission (No. 00JC14018)

# These authors contributed equally to this work

*Corresponding author: Tel, 86-21-54921254; Fax, 86-21-54921011; e-mail, [email protected]

 

从酵母表达时间序列估计基因调控网络

徐肖江#    王连水#    丁达夫*

( 中国科学院上海生命科学研究院生物化学与细胞生物学研究所蛋白质组学重点实验室, 上海 200031 )

 

摘要       基因调控网络是生命功能在基因表达层面上的展现。 用组合线性调控模型、 调控元件识别和基因聚类等方法, 从基因组表达谱解读酵母在细胞周期与环境胁迫中的基因调控网络。 结果表明, 细胞在不同环境条件下会调整基因调控网络。 在适应的环境下, 起主要作用的是细胞生长和增殖有关的基因调控网络; 而在响应环境胁迫时, 细胞会再规划调控网络, 抑制细胞生长和增殖相关的基因, 诱导跟适应性糖类代谢与结构修复相关的基因, 还可能启动减数分裂产生孢子。 分别从细胞周期和环境胁迫响应相关基因中, 搜索到转录因子Mcm1结合位点TT-CC---T--GGAAA, Dal82在尿囊素代谢途径相关基因上的结合位点TGAAAAWTTT 从而, 从酵母表达时间序列估计基因调控网络是可行的, 与至今已知的实验观察相当吻合。

 

关键词   基因调控网络; 基因组表达时间序列; 细胞周期; 环境胁迫

 

细胞生化网络是生命系统展现功能的基础, 至少有三种层次:基因表达、 代谢和信号转导。 基因表达不仅直接由转录因子调控而且还跟代谢网络与信号转导偶联; 酶与蛋白质又是基因的产物, 因此当投射到基因空间时, 生化网络就约化为基因网络[1] 目前已有一些方法从cDNA微阵列测量估计基因网络, 例如布尔网络、 贝叶斯网络、 微分方程和线性模型(包括SVD奇异值分解)[2, 3] 这些方法还有若干不确定的因素, 例如: 目前基因表达阵列测量中基因数(数千以上)远大于时间抽样点数(20左右), 因而无法唯一地确定网络参数; 这些网络模型仅描写基因之间的视在相互作用, 不区分直接的(因果的)相互作用还是间接相互作用。 前者, 指一个基因与编码转录因子的基因之间的关系; 后者, 例如某代谢物影响某基因表达, 而另一基因编码调节此代谢物的酶。 目前, 转录因子与顺式元件之间的相互作用可以利用“转录因子/顺式元件”数据库或者全基因组转录因子结合位点资料[4]给予辨认。 基因组表达的时间抽样不足的问题除了今后充分增加样点数外, 基因按共表达聚类仍能给出基因调控网络的有用估计。 这也显示, 疾病基因调节关系的解读也有助于药物目标的识别和药物设计, 从而为复杂疾病的诊断与治疗提供有价值的线索。

本文组合线性调控模型、 调控元件识别和基因聚类等方法来解读酵母在细胞周期与环境胁迫中的基因调控网络。

 

1    材料和方法(Materials and Methods)

1.1   材料

cDNA微阵列(microarray)可测量基因组转录表达数据; 若测量遍及一个时段, 即在若干时间点上测量, 就形成基因组表达时间序列, 而每个基因的表达时间序列又称基因表达谱(expression profile), 用此表达时间序列估计基因调控网络。 作为研究案例, 本文采用三套酿酒酵母(Saccharomyces cerevisiae)基因组表达时间序列。 一是细胞周期(ALPHA, α因子同步化)表达时间序列, 含有6178个基因, 18个时间采样点, 取自Spellman[5]的实验; 二是细胞响应环境胁迫的表达时间序列, 含有6152个基因, 包括: 25 ℃到37 ℃的热激, 8个时间点; 细胞经过氧化氢处理, 10个时间点; 后二套取自Gasch [6]的实验。 酵母基因的序列信息及其功能提示采用数据库SGD (http://genome-www.stanford.edu/Saccharomyces/)

1.2   方法

1.2.1       数据预处理    在基因表达时间序列中, 若某基因的缺失值的比例超过20%, 则被剔除[7] 若某基因的表达谱的绝对值都不超过2(阈值), 亦被剔除, 因为表明它不参与调控过程[3] 对细胞周期情况, 此阈值取2; 对于环境胁迫情况, 此阈值取3

1.2.2       线性网络模型线性       网络模型假定基因之间的相互作用是线性的和非瞬时的, 即基因i在时刻tk+1的表达水平是前一时刻tk所有基因j(j=1, 2,,n)表达水平的加权相加[公式(1)]

 

yi(tk+1)=, tk=t0+kΔt , k=0, 1, 2, , T–1                           (1)

 

此处Rij表示所有基因j对基因i的调控强度, Δt表示相互作用的平均传递时间[3] 当调控网络参数给定, (1)描写基因网络的动力学, 这是工程学中常见的; 当基因表达时间序列yi(t)给定, 要估计调控网络参数Rij, 现称逆向工程问题(reverse engineering) 本文的目的是后者。 现已有的几篇论文用“奇异值分解”方法求解过此逆向工程问题[8] 然而, 目前的测量均限于n>>T, 故他们的解集是不惟一的, 因而难有生物学意义。  本文试图先将众多基因聚类, 寻求类类之间的调控网络, 而类内的基因相互作用用其他知识或信息来辨认。 目前, 常把具有相似表达谱的共表达基因归属一类, 同类中的平均基因表达谱定义为代表此类的原型基因(prototype)的表达谱。 原型基因的调控网络形式上仍为式(1), 但参与网络的基因数不是n, 而是原型基因的总数P(即聚类总数) 逆工程问题就是要寻求网络参数Rij, 使得用线性网络模型拟合原型基因表达时间序列的残差总量[公式(2)]达到最小。

 

minT-1〖〗k=0P〖〗i=1[yi(tk+1)-P〖〗j=1Rijyj(tk)]2(2)

 

当上述时间采样点是满值或无缺值, 则式(2)有解析解, 可参见文献[9] 当时间采样点中有缺值, 像测量点不等间距, 例如tk+1tk相隔两个Δt, 只要将式(2)相关项改成公式(3), 其他项不变。

 

[yi(tk+1)-P〖〗j=1(P〖〗a=1RiaRaj)yj(tk)](3)

 

此时涉及Rij的非线性组合, (2)没有解析解, 但可用最优化方法, 例如遗传算法[10], 求得数值解。

1.2.3       基因聚类对预处理后的基因表达谱进行归一化, 即表达谱减去其均值再除以其标准差; 并用线性插值法填补缺失数据。 以基因表达谱的皮尔逊(Pearson)相关系数作为共表达聚类的量度, 其基因的分级聚类、 显示和分析通过软件包“Cluster”和“TreeView”完成[7]

1.2.4       调控元件与转录因子的搜索原型基因所含的基因是共表达的, 常常也是共调节的, 可用软件包AlignACE[11], 搜索基因上游的启动子序列, 寻求所有可能的顺式调控元件或转录模体(motif) 再用酵母启动子数据库SCPD核查已知转录模体和相应的转录因子[12] 还可用TRANSFAC 6.0数据库寻觅转录因子功能信息[13]

 

2    结果(Results)

2.1   细胞周期调控网络

我们找到563个在细胞周期过程显著表达的基因, 在此分为6[1(A)], 线性模建得到6个原型基因之间的调控网络[1(B)] 1可知, 原型基因1M/G1期有表达峰值, 主要是与细胞交配相关的基因。 原型基因2M/G1期显著表达, 主要是糖类代谢、 氨基酸合成与分解、 能量代谢相关基因, 核糖体蛋白和rRNA合成相关基因; 从这些基因中, 我们搜索到转录因子Gal4 QBP Bas2 Pho4 Dal82 Gcn4 (调节糖类、 氨基酸和核酸代谢相关基因的转录)DNA结合位点(2) 原型基因3G1期有表达峰值, 主要是细胞周期控制、 DNA合成和芽孢生长相关基因。 原型基因4表达峰值位于S(组蛋白基因)G2期及M前期, 其功能主要是完成染色体复制并促进细胞进入M期。 原型基因5表达峰值位于M后期, 主要是细胞营养物质合成相关基因。 原型基因6主要是M后期和G1前期表达, 主要参与染色体预复制复合物形成及M/G1期转换相关基因[5, 14]

Fig.1       Graphical representation of the linear model for 6 clusters on data set ALPHA

(A) The column of plots on the left hand side depicts 563 genes that remain in the data set ALPHA after preprocessing, grouped in 6 clusters. The column of plots on the right hand side depicts the associated prototypes. (B) A network of 6 prototypes. The circles represent prototypes. Lines show interaction, with red arrows standing for activation, and blue bars for inhibition. Solid lines represent strong effect, and dashed represent weak effect. a, mating; b, matabolism; c, budding & DNA synthesis; d, mitosis control; e, nutrion; f, pre-replication.

 

Table 1   Members of prototypes and their description of gene functions on the data set ALPHA

Cluster

Description of function

Member of Prototypes

1

Cell growth, division and DNA synthesis

SST2, FIG1, FIG2, AGA1, AGA2, GFA1, FUS1, FUS2, FUS3, KAR3, KAR4, KAR5, AFR1, MID2, SLT2, CIK1, MID2

Signal pathway:

SST2, FUS1, FUS3, CMK2

Transcription:

HAP4, IME4, KAR4, TYE7

2

Cell growth, division and DNA synthesis:

CDC48, BUB2, CIN5, TFS1, TOR2, STH1, UTH1, PAM1, DIG2, SNF6, MFA1

Carbohydrate, Amino acid, Nucleotide, Energy metabolism:

ICL2, KNH1, GLC3, TSL1, GSY2, PYK2, GLK1, GPH1, HXK1, PGM2, GPD1, MUC1, ATH1; SNF6; MET6MET28, MET31,ARG4, GAP1, ADE2, IRA2, MSU1, CEM1, STF2, ATP17, ALD6

Transcription:

PHD1, CIN5, MET31, MET28, SNF6, STH1, MDR1, SRB7

3

Cell cycle control:

SWI4, CLN1, CLN2, CLB6, MCD1, RAD53, PCL5, ZIP1, SMC3

DNA synthesis, repair and replication:

CLN2, CLB6, RAD27, RAD51, RAD53, RAD54, RFA1, RFA2, RNR1, RNR3, POL12, POL30, MSH2, MSH6, CTF4, DPB2, CDC9, PRI2, DUN1, TFB1

Transcription:

SWI4, ASF1, MIG1, HCM1, SPT21, GAT1, TAF25, TFB1, YOX1, HFM1ABF1

4

Cell growth, division and DNA synthesis

CIS3, BUD3, CHS2, MYO1, BUD4, SWI5, ACE2, ECM33, CDC5, CLB1, CLB2, ASE1, CYK2;

Carbohydrate, Amino acid, Energy metabolism

MUP1, CAR2, MET17, MET14, ARO9, DIP5, MUP1, ALG7, PHO4, PMI40, ECM15, ALG5, PSA1, PMT2, CHS2, ATF2, IDH1, ACE2, ERG4, ELO1, ERG3

Transcription

DOT4, PHO4, HTA2, HTB2, HHT2, HHF2, HTB1, HTA1, HHT1, HHF1, HST3, SWI5, ACE2FKH1, FKH2, NDD1

5

Phosphate metabolism

MIS1, CHA1, FUN63, URA7, PHO3, PHO5, PHO11, PHO12, EXG1, MSN1, AUR1, FAA4

Cell cycle control

DBF2, CDC47, YTM1, DIP2, MAK16, RME1, SSF1, EXG1, IQG1

Transcription

DBF2, MSN1, RME1, NSR1, NOP2, HCA4, MRT4, SSM4, SRP40, GCD14

6

Cell cycle control and mitosis

PCL2, FAR1, CLN3, PCL6, CDC54, CDC6, PCL9, EGT2, SIC1, TPD3

Cell growth, division and DNA synthesis

EGT2, TPD3, FAR1, HSP150, BUD9, CHS1, MFA2, STE2, GPA1, NUT2, ASH1, XRS2, CDC54, MCM3, MCM2, CDC6, CTS1

Transcription

NUT2, ASH1, PCL9, GCR3, TPD

 

Table 2   Transcriptional motifs from 6 prototypes on data set ALPHA

Motif

Cluster

Notes

GGGGC-SSS-S----G

C2

Gal4->GAL7; Gal4->GAL10; QBP->GAL10; Pho4->PHO8; IRE->IME1; Gal4->GAL80

G-----RR----GG-KGG-G

C2

Gal4->GAL10; Dal82->DAL7; ARC->ARG1

AAA-G-GGSGC--S

C2

Dal82->DAL4

GS-S-SSCC-----GGG

C2

QBP->GAL10; heat shock not HSE->DDR2; BUF->CAR1

GS-GS-S--G---KGG

C2

QBP->GAL1; URSSGA->SGA1

-G--G-G--SC--G---GG----C

C2

QBP->GAL1; URSSGA->SGA1

GAAAAGCCC-T

C2

Leu3->LEU2; URS1ERG11->ERG11

WRACGCGT-R

C3

Mcm1->CLN3

CGCG-AA-A-AAA

C3

Dal82->DAL4

CSGC---GG------SM-C--R

C4

QBP->GAL1; Hap1->CYC1

GCGATGAG-TG

C5

BUF->HO

TT-CC---T--GGAAA

C6

Mcm1->CLN3CDC47SWI4FAR1HSP150CDC6STE6CCP1CDC46

RARCCAGCMR

C6

Swi5->HO; ROX->HEM13; Cup2->CUP1

CACGT(G/T)

C2/C6/C3/C4/C5

Pho4

TGATTG/TAA(A/G)TAA

C2/C4

Bas2

TGA(A/T/C)TT

C2/C4

GCN4

CGCGAAA

C3

SCB

ACGCGA

C3

MCB

GTAAACAA

C4

SFF

CCGCCAAGGG

C4/C1

Mcm1

The first column is sequence representation of the motif bound by transcriptional factors. The second column is the clusters name. The last column lists the common name or transcriptional factors.

 

我们搜索到6个细胞周期关键转录激活子基因SWI4(原型基因3) SWI5 ACE2 FKH1 FKH2NDD1(原型基因4) 原型基因3具有自身正调节作用, 其中转录因子Swi4能结合SWI4激活转录。 原型基因4 也具有自身正调节作用, 其中的转录因子Fkh1/Fkh2/Ndd1正调节自身包含的SWI5ACE2转录。

1(B)可以看出, 原型基因1具有正反馈调节, 其中CIK1Kar4的调节, 另外Slt2MAP激酶, Sst2是激活GTP酶蛋白的信号调节子, 促进了原型基因1中与细胞交配信号相关基因表达。 原型基因2正调节了原型基因1, 其中Phd1是原型基因1HAP4的转录因子[4]; 另外原型基因2受原型基因6的正调节, 细胞周期蛋白Cln3正调节其中的G1期细胞生长有关物质合成相关的基因[15] 原型基因3具有正反馈作用, Swi4能结合SWI4 促进自身转录, 同时正调节细胞周期蛋白基因CLN1 CLN2 CLB6PCL5的转录[4,16] 2也表明原型基因3最保守的模体是SCBMCB结合位点。 原型基因4受到本身的正调节以及原型基因6的负调节, Fkh1/Fkh2/Ndd1联合调节ACE2 CLB1CLB2的转录; 其中的最保守的模体是转录因子Mcm1SFF的结合位点(2) 原型基因6中细胞周期蛋白Sic1Far1负调节Clb1Clb2等细胞周期蛋白[15,16] 原型基因4负调节原型基因1 2 36, 细胞周期蛋白Clb2结合Cdc28激酶负调节转录激活子Swi4Cln2 Pcl2 Pcl9等细胞周期蛋白[15] 原型基因5受正反馈调节和原型基因6正调节; 其中Msn1EXG1的转录激活子, 另外原型基因6中的细胞周期蛋白Pcl2Pcl9正调节了磷酸盐代谢相关基因(PHO3 PHO5 PHO11PHO12)[16] 其中具有转录因子Pho4在磷酸盐代谢相关基因的保守结合位点(2) 原型基因6受原型基因3正调节和正反馈调节作用, 其中原型基因3中的转录因子Swi4PCL2 PCL9 BUD9等的正调节子[16], 而细胞周期蛋白Cln3也促进了它们的转录。

简言之, 在整个细胞周期中, 原型基因6先积累一定的Cln3, 然后Cln3正调节原型基因2中与生长所需物质合成相关基因的表达。 接着原型基因3中的Swi4通过正反馈作用迅速积累, 并进一步促进原型基因2中与生长相关物质的合成, 同时激活原型基因3中与细胞周期控制、 DNA合成和芽孢生长相关基因。 在原型基因6 1 23的共同作用下细胞得到充分生长, 原型基因4中关键细胞周期蛋白Clb2抑制了原型基因6 1 23, 并推动细胞进入有丝分裂周期。 在有丝分裂完成后, 原型基因6通过转录因子Sic1Far1负调节Clb2使细胞退出有丝分裂过程, 同时促进Cln3的积累为下一次细胞周期做准备。 上述解读均与至今已知的实验观察相当吻合。

2.2   环境胁迫调控网络

热激表达谱预处理后剩余1287个基因数据, 聚类后分为6[2(A)], 线性模建得到6个原型基因调控网络[2(B)]; 过氧化氢处理表达谱预处理后还剩1009个基因, 聚类后分为9[3(A)], 线性模建得到9个原型基因调控网络[3(B)]

Fig.2       Graphical representation of the linear model for 6 clusters on data set Heat Shock

(A) The column of plots on the left hand side depicts 1287 genes that remain in the data set Heat Shock after preprocessing, grouped in 6 clusters. The column of plots on the right hand side depicts the associated prototypes. (B) Network of 6 prototypes. The red circles represent prototypes induced. The blue circles represent prototypes repressed.

 

2.2.1       热激       2(A)3中可以看出, 原型基因1在热激后立刻被激活, 主要是糖类、 能量代谢相关基因和分子伴侣基因(HSP42KAR2) 原型基因2也被激活, 含有糖类和能量代谢相关基因、 蛋白结构稳定与修复基因、 胁迫响应转录控制相关基因和编码蛋白质水解酶的基因。 原型基因315 min后表达水平才明显上升, 但这种高水平一直维持较长时间, 主要是胁迫响应修复基因、 糖类和能量代谢相关基因、 氨基酸代谢基因和蛋白水解酶基因。 原型基因4在热激过程中转录水平也升高, 主要是信号传导相关基因, 与热激响应系统的启动有关。 原型基因5在胁迫响应过程中转录水平急剧下降, 主要是细胞生长分裂相关基因, 以及氨基酸、 核酸等物质合成相关基因和rRNA合成相关基因。 原型基因6的转录水平也急剧下降, 主要是细胞生长分裂和核糖体蛋白合成相关基因。

Table 3   Members of prototypes and their description of gene functions on data set heat shock

Cluster

Description of function

Member of prototype

1

Protein destination

HSP42, KAR2, PEP1

Carbohydrate / Energy metabolism

FUN50, TPS2, GSY1, GAC1, MTH1, MAL31, AGT1, HXT4FAT1

Transcription

NRG1, CIN5, PHD1, YAK1, GAT2

2

Stress response

MSN4, GIP2, STI1, SSC1, HSP104, GRE3, HSP26, UBI4, TPS1, CTT1, SSA4, GPD1, SSA2, HOR7, MDJ1

Protein destination

SSC1, SSA2, MDJ1, YAP1801, LAS17, UBI4, MSF1, UGP1

Carbohydrate / Energy metabolism

SDH4, NTH1, FSP2, CIT2, TSL1, GRE3, GLK1, GSY2, TPS1, SDH1, FBP26, PGM2, GPD1, XKS1, HXK1, UGP1, MSN4, GIP2, HXT6, HXT7, HXT5, STF2, RIP1, MCR1, GLG1, GAT4/YIR013C, DIP5, AGP2, CAR1

Cell growth

CMK1, STI1, NGR1

Signal pathway

PTK2, GPA2, CMK1, PKA3

Transcription

MBR1, MSN4, YAP6, XBP1, SIS1, UBI4;

3

Stress response

SED1, SLT2, YGP1, HOR2, HSC82, DDI1, HSP150, HSP12, PIR3, SSE2, SRA1, SSA3, ZWF1, PAI3, HSP82, HSP60, DAK1, DDR48IMP2

Carbohydrate / Energy metabolism

GND2, ACO1, HOR2, PYK2, PYC1, TKL2, GCY1, MDH1, FUN49, HSP12, CIT1, PFK26, SHC1, ZWF1, NTH2, IDH2, GUT2, DLD1, IDP2, GPM2, DAK1, AMS1, SRA1, CYT1, COX15, YTP1, COX5B, COR1, ALD4, HSP82

Amino-acid /nucleotide metabolism

CAR2, TKL2, UGA1, BAT2, CIS2, GLO1, GLO2, GCV2, GCV1, ADE2, TTR1, YNK1

Signal pathway

SLT2, HSP12, TFS1, TOR1, SRA3

Transcription / protein synthesis

SIP2, MRF1, CPR6, MSS116, GSP2, WTM1, IDH2, TOR1

4

Stress response

YRO2, HSP78

Carbohydrate / Energy metabolism

PIG2

Amino-acid metabolism

MET28, LYS5

Signal pathway

CMK2, INP52, YAP5, SPS1

5

Cell growth/ cell cycle

PPH3, MAK11, PWP2, BUD3, SRO4, CLN2, CLB2, SOK2, MSB2, FAR1, SSF1, POL12, POL30, FOB1, RNC1, MAK16, DIS3, RPG1, CTF13, SWE1, SUP35, PCH1

Amino-acid /nucleotide metabolism

SAM1, ARG8, BAS1, SAM2, HPT1, ADE13, ADE6, PRPS5, URK1, FUI1, FUR4, DCD1, FCY2, PPR1, FCY2

Stress signal pathway

SOK2, TPK3, SLN1, FAR1, SSK22, HMS2

Transcription

RPA12, RPC53, RRN3, RPB5, RPA34, ROK1, SPB4, RPP1, RRP4, DIS3, HCA4, MPP10, DBP3, RRP3, MTR3, SXM1, TRL1, RAD3, SOK2, DOT4, HMS2, PPR1, BAS1, HPA1, SSM4

Translation

RPG1, SUA5, GCD1, GCD2, SUP35

6

Cell growth/ cell cycle

RPS0A, MNN10, ECM33, PRT1, YVH1, CDC47, PUS4, PRT1, SAS5, BUB1, CLB5, CLB6, PHO3, PHO5, PHO11, PHO12, PHO80, SWI6

tRNA synthetases

GRS1, WRS1, THS1, DED81, KRS1

Ribosomal proteins

64 species ribosomal protein genes

Transcription

RPA190, RRN6, RPC34, DBP2, RRP5, PUS4, EGD2, HHF2, HTB1, HTA2, HTB2, HTA1, HHF1, FKH1, SAS5, MET31, JA2, YLA1

Translation

TEF4, CDC95, RPP1A, BEL1, EFT2, TIF1, PRT1, EFT1, TIF34

 

从图2(B)可知, 原型基因1受正反馈调节, 转录因子Nrg1能正反馈调节NRG1, 而且Nrg1可通过Snf1信号途径调节原型基因1中糖类代谢相关的基因(葡萄糖抑制基因)[4, 6] 原型基因1正调节原型基因2, 因为转录因子Nrg1促进原型基因2GAT4和其他糖类代谢相关基因的表达[4, 17, 18]; 转录因子Phd1正调节原型基因2MSN4的转录[4]; 转录因子Gat2可以激活原型基因2中的氮分解物阻遏(nitrogen catabolite repression NCR)途径相关基因[19] 通过搜索原型基因2的上游启动子序列, 找到了转录因子Dal82在尿囊素代谢途径相关基因上的结合位点TGAAAAWTTT(4), 这些基因的表达产物可利用或清除了蛋白质和氨基酸分解代谢物[19] 原型基因2负调节原型基因5, 钙调蛋白Cmk1可以通过Ca2+/PKC途径抑制原型基因5中细胞生长和增殖相关基因的转录, 例如rRNA合成相关基因(见表3)[6,20] 原型基因2中含有胁迫响应转录因子Msn4Yap6[6,21]; 这里原型基因2只正调节原型基因4, 在热激响应过程中Msn4 Yap6可能先激活了原型基因4中蛋白激酶基因,通过信号途径激活原型基因1和原型基因3, 而抑制原型基因5 另外转录抑制子Xbp1抑制了胁迫响应过程中原型基因5中编码mRNA合成及处理的基因转录。 原型基因3受正反馈调节作用, 转录因子Imp2可激活原型基因3中糖类代谢相关基因; Sra3PKA信号途径中的正调节子, 它诱导了原型基因3中糖类代谢和氨基酸分解代谢相关基因的表达。 原型基因3负调节原型基因2, 蛋白激酶Sra1PKA信号途径中的负调节子, 参与负调节原型基因2中的基因MSN4[6,22] 原型基因3它还负调节原型基因5, 蛋白激酶Slt2通过MAP/PKC信号途径, Tor1通过TOR信号途径共同负调节原型基因5中与细胞生长和增殖相关基因[6,20,23] 原型基因4正调节了原型基因13, 转录因子Yap5和参与细胞发育途径有关的蛋白激酶Sps1可能通过信号途径正调节了它们。 原型基因4负调节原型基因5, 钙调蛋白Cmk2可以通过Ca2+/PKC途径抑制原型基因5中与细胞生长和增殖相关基因[6,20] 原型基因5负调节原型基因6, Far1Clb2可抑制原型基因6中编码细胞周期蛋白的基因转录。 原型基因6正调节原型基因5, 转录因子Swi6可激活原型基因5CLN2 CLB2 SWE1等基因。 原型基因56都有转录因子BUF在细胞周期相关基因上的DNA结合位点GMGATGAG-T(4)

Table 4  Transcriptional motif from 6 prototypes on data set Heat Shock ranked by specificity score

Motif

Cluster

Notes

G-K--GR-GSGG-GG

C1

Gal4->GAL1; Dal82->DAL7; IRE->IME1; Pho4->PHO84

S-GGGGG-GGW-R

C1

IRE->IME1; Gal4->GAL10

RG-GG-GG-M--GM--G

C1

IRE->IME1; QBP->GAL1; ARC->ARG1

CCSTGMG-GG

C1

QBP->GAL10

-MCKG-GCGG

C1

Gal4->GAL2

S-S---R----KG-GG--G-SG

C1

QBP->GAL1

S--G-G--GG----GS-KS

C1

QBP->GAL10; QBP->GAL1; UAS1ERG11->ERG11; IRE->IME1; BUF->CAR1

G--GC-R--S-SGG

C1

BUF->HO;BUF->CAR1

S-GGSG--G---S---GG

C1

IRE->IME1URSSGA->SGA1

ARGGGG--GSGG

C2

Dal82->DAL4; Heat shock not HSE->DDR2

R-RRRGG-G-RR

C2

Mot3->Ty; Mcm1->CDC46

G-G--RGGGG--GG

C2

IRE->IME1; UASGABA->UGA1

GSSGCSS------S

C2

QBP->GAL1; Leu3->LEU2; Gal4->GAL2; Hap1->CYT1; BUR->CAR1

SS------SG--GCS-C

C2

Dal82->DAL4

SG-GCSGSG----S

C2

QBP->GAL10; QBP->GAL1; Leu3->LEU2; Pho4->PHO8

GG--S---GGGS-GC

C2

Gal4->GAL10; Dal82->DAL4

RS------KSGSCGS--S

C2

Gal4->GAL1; QBP->GAL1; Leu3->LEU2

GGGS-GM-GC-

C2

Gal4->GAL10; QBP->GAL10; Gal4->GAL1; QBP->GAL1

S------GGG-G--GG-R----

C2

STRE

SS--G--KCGSSSS

C2

Gal4->GAL10; QBP->GAL10; QBP->GAL1; Bas1->ADE5,7; Dal82->DAL4; Gal4->GAL80

-S-GSGCC-C-----G--

C2

Gal4->GAL1; Pho4->PHO8

CCCCGCAAATAT

C2

Mig1

GGGRG-G--GG-GG

C3

STRE

SRRG-G--G-A---RS-R

C3

URSSGA->SGA1;IRE->IME1

RGGG--RR-------SGR

C3

IRE->IME1; Gal4->GAL2; Gal4->GCY1; BUF->CAR1

GSS----KCGGC-S

C3

Gal4->GAL10; QBP->GAL10; Mcm1->PMA1

TGAAAAWTTT

C5

Dal82->DAL4

GMGATGAG-T

C5

BUF->HO

GMGATGAG-T

C6

BUF->HO

TGAAAAWTTT

C6

Dal82->DAL4

ATGT-YGGRTK

C6

Mot3->Ty; Mig1->GAL1; Pho4->PHO84

 

简而言之, 细胞受热激时立刻启动修复与调整机制, 而这些过程却引起细胞内ATP浓度急骤下降, 转录因子Nrg1通过自反馈迅速积累, 接着激活糖类代谢相关基因, 使细胞可以利用各种碳源提供能量。 原型基因1 23中保守转录模体是转录因子Gal4QBP的结合位点, 它可激活糖类代谢相关基因。 同时蛋白激酶Cmk1 Slt2 Cmk2通过PKC信号途径, Tor1通过TOR信号途径, 抑制细胞生长和生殖相关的基因, 使细胞利用有限的物质与能量以维持其基本生命活动。 从原型基因1 23中还找到转录因子IRE的结合位点, 它可激活细胞减数分裂相关基因, 如减数分裂转录激活子Ime1的基因; 蛋白激酶Rim11也能激活Ime1, 因此环境胁迫响应也可能导致细胞进入减数周期产生孢子。

2.2.2       过氧化氢       从图3(A)5中可知, 原型基因1, 主要是编码去氧化作用酶类的基因(TRX2, CTT1, TTR1, TSA2) 分子伴侣和二硫化物异构酶基因、 细胞骨架修复基因、 DNA修复基因、 蛋白水解酶的基因、 糖类代谢和呼吸链相关基因, 过氧化氢处理时受诱导。 原型基因2, 主要是糖类代谢基因、 蛋白质修复和降解相关基因以及细胞壁组织与修复相关基因, 也受诱导。 原型基因3, 主要是去氧化作用基因、 糖类和氨基酸代谢相关基因、 染色体结构与DNA修复基因和蛋白水解酶基因, 在过氧化氢作用时转录水平迅速上升, 但很快恢复到正常水平。 原型基因4, 主要是去外来毒物相关基因、 DNA修复基因和细胞壁组织与修复基因, 也受诱导。 原型基因5转录水平显著下降, 主要是细胞生长分裂相关基因。 原型基因6, 主要是生长信号途径相关基因(RAS1, DIG1), 在胁迫过程中被抑制。 原型基因7, 主要是与细胞生长增殖相关基因, 也受抑制。 原型基因8, 主要是氨基酸脱氢、 糖类、 脂肪酸代谢相关基因, 蛋白质降解基因, 染色体稳定与DNA修复基因, 受诱导。 原型基因9, 包含有大量核糖体合成相关基因, 细胞生长所需物质合成有关基因及细胞周期调节基因, 受强烈抑制。 原型基因9的上游存在转录因子BUF保守DNA结合位点GMGATGAG-T

Table 5   Members of prototypes and their description of gene functions on data set H2O2

Cluster

Description of function

Member of Prototypes

1

Detoxification

TRX2, GSH1, CTT1, TTR1, ZWF1, FLR1, TSA2

Stress response

SLT2, HOR7, DDR48, TPS2, HSP104, CTT1, HYR1, SSA4, ZWF1, DDI1, YAP1, HSP12, HSP26

Protein destination

HSP42, CYT2, TRX2, PEP4, UGP1, BAG7, COX15

Proteolysis

CDC53, UBP2, RPN3, PRE1, CDC48, PEP4, APG1, LAP4, PRD1

DNA repair

RAD52, REV3, MAG1

Carbohydrate / Energy metabolism

PGM2, ERR1, TSL1, HXK1, TPS2, GLC3, ZWF1, UGP1, GSY2, PIG1, GSY2

Signal pathway

SLT2, CMD1, TFS1, TOR2, NRG1

Ribosomal proteins

MRP8, MRP10, MRPL25, MRP49, MRPL24

Transcription

RRN5, GIP1, SPO1, ORC5, YAP1, ESC1

2

Carbohydrate / Energy metabolism

CIT1, CDA1, GPM2, GLK1, NTH1, GPD1, JEN1, STL1, GLK1, ALD2, MCR1, ALD4, GIT1

Biogenesis of cell wall

ECM4SPS100ECM23 ECM34DIT1CDA1

3

Detoxification

GLR1, ATR1, CCP1

Protein destination

MDJ1, MSF1, RAD18, DOA4, RPN8

Amino-acid metabolism

ECM40, ARG4, CPA2, LYS21, ARG1, LEU4, CPA1, LYS20, SDL1

Carbohydrate/Energy metabolism

SWI1, GAL10, LYS21, LYS20, RGT2, OYE2, CYC1GRE2

Transcription

SWI1, TIS11, CIN5, SIP4, MRS4, RPC31, POP4, RPC31, RPM2, GPB1, GPB2

4

Detoxification

SOD2, ERG11, SKI3

DNA repair

PHR1OGG1RNR2

Cell wall

SLZ1, SPO16, ECM27

Transcription

SOL4, RGM1

5

Cell growth / cell cycle

PHD1, CDC9, TEL1, PPS1

Stress response

WSC4, SSU81

Transcription

PHD1, SFL1, HCA4, GCD14

6

Cell growth / cell cycle

RAS1, DIG1, ORC1, SHC1, MEI5, SCC2, SPC42, TOM1

Transcription

RRN11, IFH1, TAF17, ORC1

7

Cell growth /cell cycle

SHR5, EGT2, BNR1, PWP2, SPS4, NNF1, DSK2, CYK2

Transcription

HIR2, HST3

8

Protein destination

TOM22, APC4, HAT2, SCO1, UBP11

Cell growth

PPH22, GIC2, CDC12, NFI1, FUS2, SIR1, RFA3, APC4, BAT1

Metabolism

BAT1, ILV1, LYS2, HNT1, GCY1, NTH2, TPS3, PPH22, CDC12, CHO2, PDX3

Transcription/Translation

CCA1, SIR1, MOT3, HAT2, CBT1, TIF11, PET122

9

Cell growth /cell cycle:

MAK11, CBF5, BUD4, CLN2, SWI5, SSF2, SPS18, TRF5, CIN4, CLB1, PCL9

Ribosomal proteins

25 species ribosomal protein genes

Metabolism

MET6, PRO1, DPH2, ILV5, GCV3, DAL80, GUA1, ADE5,7, AAH1, SHM2, URA3, URA1, URA7, FCY2, PHO12, PHO11, CYB2, RHR2, RKI1, MLS1, GAC1, SHM2

Transcription/Translation

RPC53, RPA34, RPC40, RPC82, RPB8, RPO26, RPA49, NOP2, DBP2, MIG2, SIK1, GAR1, NSR1, RNT1, DIM1, CBF5, MTR3, MPP10, IRS4, HTA2, SWI5, DAL80, SAS10, HTB2, DOT4, SPS18, HAS1, PRP43, DBP7, JA2, NMD3, YLA1, SRP40, DBP8, YEF3, GCD2, WRS1, IMG1

 

从图3(B)可知, 原型基因1受正反馈调节, 转录因子Nrg1正反馈调节NRG1, 并通过Snf1信号途径调节原型基因1中葡萄糖抑制的糖类代谢基因[4,17,18]; 转录因子Yap1诱导原型基因1中去过氧化作用相关基因的转录(TRX2, CTT1, TTR1, LAP4, DDR48, TSA2)[6] 原型基因1负调节原型基因5 69, 钙调蛋白Cmd1和蛋白激酶Slt2通过Ca2+/PKC信号途径, Tor2通过TOR信号转导途径共同抑制原型基因5 69中与细胞生长及核糖体合成相关基因的表达[20,23] 原型基因3正调节原型基因1, 转录因子Swi1Sip4通过SNF信号途径正调节原型基因1中糖类代谢相关基因[17,24], 另外转录因子Cin5也能激活原型基因1中含有Yap1结合位点的基因。 转录因子Gpb1Gpb2通过cAMP-PKA信号转导途径正调节原型基因1中糖类代谢相关基因的表达[6] 原型基因4负调节原型基因6, 转录负调节子Rgm1Ski3共同负调节原型基因6中细胞生长增殖相关基因[25] 原型基因5正调节了原型基因79, 负调节原型基因6; 转录因子Phd1正调节原型基因79与细胞生长相关基因; 转录因子Sfl1负调节由RNA聚合酶II启动的转录, 而负调节原型基因6[26] 原型基因6正调节原型基因9, Ras蛋白Ras1MAP蛋白激酶Dig1可以通过Ras信号途径促进原型基因9中细胞生长与增殖相关基因的表达, 转录因子Rrn11Taf17也可通过ras-PKA信号途径正调节核糖体rRNA和核糖体蛋白合成[20] 原型基因7负调节原型基因2 4和自身基因, 转录负调节子Hir2和染色体沉默蛋白Hst3可能抑制了有关基因表达。 原型基因8负调节原型基因9, 转录因子Sir1导致原型基因9中核糖体蛋白合成相关基因和细胞生长和有丝分裂相关基因的沉默, 转录因子Mot3 Hat2Apc4可能也参与此过程。

Fig.3       Graphical representation of the linear model for 9 clusters on data set H2O2

(A) The column of plots on the left hand side depicts the 1009 genes that remain in the data set H2O2 after preprocessing, grouped in 9 clusters. The column of plots on the right hand side depicts the associated prototypes. (B) Network of 9 prototypes.

 

总之, 在过氧化氢处理过程中, 原型基因1 2 3 48受诱导, 主要涉及糖类代谢相关基因、 细胞内生物大分子修复相关基因和编码调控因子的基因; 其中转录因子Nrg1 Swi1Sip4促进糖类代谢相关基因表达, 使细胞能利用各种糖类, 确保细胞能量供给稳定。 从原型基因1 23, 搜索发现它们保守的转录模体主要是转录因子QBP Leu3 Mig1, Gal4等在糖类代谢相关基因上的DNA结合位点(6) 同时转录因子Yap1激活去过氧化作用和修复相关的基因。 从它们当中, 还找到转录因子Dal82DNA结合位点GAARGGGG-G-, 它主要分布于尿囊素代谢途径相关基因的启动子上游; 这些基因通过尿囊素代谢途径转化或清除对细胞有毒害作用的蛋白质和氨基酸降解物。 同时, 钙调蛋白Cmd1和蛋白激酶Slt2通过Ca2+/PKC信号途径, Tor2可通过TOR信号转导途径负调节细胞生长和增殖相关基因的表达。 另外, 转录因子IRE在启动子上游保守结合位点ARGGRG--G-GGSSCC---T-Y-----GGG--S存在于IME1的上游, 它编码的蛋白质可激活细胞进入减数分裂过程。 这说明细胞响应环境胁迫, 启动了结构修复机制并清除有毒代谢产物, 当环境胁迫压力过大, 细胞无法维持内环境稳定时可启动减数分裂形成孢子。

Table 6   Transcriptional motif from 9 prototypes on data set H2O2 ranked by specificity score

Motif

Cluster

Notes

ARGGRG--G-GG

C1

Leu3->LEU2;IRE->IME1; ARC->ARG1

R-ARG-G--GRRGG

C1

BUF->CAR1

GR--R-GGSG---G-GG

C1

Leu3->LEU2

SSCC---T-Y-----GGG--S

C1

QBP->GAL1;IRE->IME1

GAARGGGG-G-

C1

Dal82->DAL7; UIS->DAL7

KGGG-G---GGGG

C2

Mig1->MAL61; Gal4->GAL10; Leu3->LEU2; Pho4->PHO8; ASGABA->UGA1; UAS1ERG11->ERG11; Abf1->POT1; Hap1->CYC1; HAP2-HAP3-HAP4->CYC1; BUF->CAR1

CGGAACCGG

C3

LEU3

CGGATTAGAAGCCGCCG

C3

Gal4

GMGATGAG-T

C9

BUF->HO

TGAAAAWTTT

C9

Dal82->DAL4

 

3    讨论(Discussion)

本文组合线性网络模型、 调控元件识别和基因聚类等方法估计酵母在细胞周期与环境胁迫响应过程中的基因调控网络。 作为分析案例, 此方法用于酵母在细胞周期与环境胁迫等场合。 结果表明, 此酵母基因调控网络所展示的基因之间的相互作用动态与至今已知的实验观察相当吻合。

此方法可以推广, 用于其他物种的基因调控网络的解析。 目前的cDNA微阵列测量还有技术限制, 例如时间采样点还不充分(Nyquist采样定理) 背景噪声干扰等。 为了过滤掉测量的假阳性, 在数据预处理中设置了表达谱的阈值, 却伴生了假阴性, 遗漏了至今发现的9个细胞周期转录激活子中的三个, Mcm1 Swi6Mbp1 随着测量技术的改进, 这些限制将不复存在。

结果显示, 在不同的环境条件下, 细胞重新组织基因调控网络。 在适宜的环境条件下, 细胞生长和分裂周期调控网络起主要功能; 与之相反, 在环境胁迫条件下, 抑制了细胞生长和分裂周期调控网络, 而重新规划基因调控网络。 本文搜索到大量转录因子和蛋白质激酶, 并通过基因调节网络展示了它们之间的相互调节和对目标基因的调控关系。 例如, 响应环境胁迫时, 转录因子Nrg1先通过正反馈迅速积累, 接着激活受葡萄糖抑制的糖类代谢基因。 然而, 基因之间的调节最终还是通过转录因子对基因启动子上游顺式元件的结合来实现。 从这些原型基因中识别出的特异性转录模体(motif), 提供了基因之间直接调控(因果关系)的证据。 我们仅通过SCPD数据库进行核查这些转录模体, 相信通过实验能确证迄今为止新的转录模体和与之结合的转录因子。

虽然由于表达谱数据抽样不足, 线性网络模型的拟合只是一种近似, 不可避免带来一定模糊性, 但本文构造的细胞周期和环境胁迫条件下基因调控网络, 使我们可以比较全面而且深入的理解酵母细胞在各种环境条件下的基因调节关系。

本文只列出案例中所涉及的部分基因和它们的功能描述, 详情见补充材料(http://compbio.sibsnet. org/projects/gene-network/)

 

References

1     Brazhnik P, de la Fuente A, Mendes P. Gene networks: How to put the function in genomics. Trends Biotechnol, 2002, 20(11): 467472

2     D’haeseleer P, Liang S, Somogyi R. Genetic network inference: From co-expression clustering to reverse engineering. Bioinform-atics, 2000, 16(8): 707726

3     van Someren EP, Wessels LF, Reinders MJ. Linear modeling of genetic networks from experimental data. Proc Int Conf Intell Syst Mol Biol, 2000, 8: 355366

4     Lee TI, Rinaldi NJ, Robert F, Odom DT, Bar-Joseph Z, Gerber GK, Hannett NM et al. Transcriptional regulatory networks in Saccharomyces cerevisiae. Science, 2002, 298(5594): 799804

5     Spellman PT, Sherlock G, Zhang MQ, Iyer VR, Anders K, Eisen MB, Brown PO et al. Comprehensive identification of cell cycle-regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization. Mol Biol Cell, 1998, 9(12): 32733297

6     Gasch AP, Spellman PT, Kao CM, Carmel-Harel O, Eisen MB, Storz G, Botstein D et al. Genomic expression programs in the response of yeast cells to environmental changes. Mol Biol Cell, 2000, 11(12): 42414257

7     Eisen MB, Spellman PT, Brown PO, Botstein D. Cluster analysis and display of genome-wide expression patterns. Proc Natl Acad Sci USA, 1998, 95(25): 1486314868

8     Yeung MK, Tegner J, Collins JJ. Reverse engineering gene networks using singular value decomposition and robust regression. Proc Natl Acad Sci USA, 2002, 99(9): 61636168

9     Huang YD, Di CS, Zhu SX. Matrix Theory and Their Application. Hefei: University of Science and Technology of China Press, 2002

10    Houck CR, Joines JA, Kay MG. A Genetic Algorithm for Function Optimization: A MATLAB Implementation. Technical Report: NCSU-IE-TR-95-09, 1995

11    Roth FP, Hughes JD, Estep PW, Church GM. Finding DNA regulatory motifs within unaligned noncoding sequences clustered by whole-genome mRNA quantitation. Nat Biotechnol, 1998, 16(10): 939945

12    Zhu J, Zhang MQ. SCPD: A promoter database of the yeast Saccharomyces cerevisiae. Bioinformatics, 1999, 15(7-8): 607611

13    Wingender E, Chen X, Fricke E, Geffers R, Hehl R, Liebich I, Krull M et al. The TRANSFAC system on gene expression regulation. Nucleic Acids Res, 2001, 29(1): 281283

14    Cho RJ, Campbell MJ, Winzeler EA, Steinmetz L, Conway A, Wodicka L, Wolfsberg TG et al. A genome-wide transcriptional analysis of the mitotic cell cycle. Mol Cell, 1998, 2(1): 6573

15    Futcher B. Transcriptional regulatory networks and the yeast cell cycle. Curr Opin Cell Biol, 2002, 14(6): 676683

16    Simon I, Barnett J, Hannett N, Harbison CT, Rinaldi NJ, Volkert TL, Wyrick JJ et al. Serial regulation of transcriptional regulators in the yeast cell cycle. Cell, 2001, 106(6): 697708

17    Carlson M. Glucose repression in yeast. Curr Opin Microbiol, 1999, 2(2): 202207

18    Vyas VK, Kuchin S, Carlson M. Interaction of the repressors Nrg1 and Nrg2 with the Snf1 protein kinase in Saccharomyces cerevisiae. Genetics, 2001, 158(2): 563572

19    Rai R, Daugherty JR, Cunningham TS, Cooper TG. Overlapping positive and negative GATA factor binding sites mediate inducible DAL7 gene expression in Saccharomyces cerevisiae. J Biol Chem, 1999, 274(39): 2802628034

20    Warner JR. The economics of ribosome biosynthesis in yeast. Trends Biochem Sci, 1999, 24(11): 437440

21    Gasch AP, Werner-Washburne M. The genomics of yeast responses to environmental stress and starvation. Funct Integr Genomics, 2002, 2(4-5): 181192

22    Smith A, Ward MP, Garrett S. Yeast PKA represses Msn2p/Msn4p-dependent gene expression to regulate growth, stress response and glycogen accumulation. Embo J, 1998, 17(13): 35563564

23    Kawai M, Nakashima A, Ueno M, Ushimaru T, Aiba K, Doi H, Uritani M. Fission yeast tor1 functions in response to various stresses including nitrogen starvation, high osmolarity, and high temperature. Curr Genet, 2001, 39(3): 166174

24    Neely KE, Hassan AH, Brown CE, Howe L, Workman JL. Transcription activator interactions with multiple SWI/SNF subunits. Mol Cell Biol, 2002, 22(6): 16151625

25    Estruch F. The yeast putative transcriptional repressor RGM1 is a proline-rich zinc finger protein. Nucleic Acids Res, 1991, 19(18): 48734877

26    Song W, Carlson M. Srb/mediator proteins interact functionally and physically with transcriptional repressor Sfl1. EMBO J, 1998, 17(19): 57575765